Yapay zeka kodlama alanındaki önde gelen karşılaştırmalı analizler, uzun süredir işletmeler için güven verici ancak yanıltıcı bir tablo çiziyordu: En iyi modellerin yeteneklerinin birbirine oldukça yakın olduğu algısı hakimdi. OpenAI'nin GPT-5 ailesi, Anthropic'in Claude Opus'u ve Google'ın Gemini Pro'su gibi modeller, Scale AI'nin SWE-Bench Pro liderlik tablosunda dar bir aralıkta yer alarak, mühendislik yöneticilerinin kendi kod tabanlarında hangi yapay zeka aracının en iyi performansı göstereceğini belirlemesini neredeyse imkansız hale getiriyordu.
Ancak Pazartesi günü Datacurve adlı bir girişim tarafından yayınlanan yeni bir karşılaştırmalı analiz olan DeepSWE, bu yanıltıcı algıyı ortadan kaldırdığını iddia ediyor. 91 açık kaynaklı depoyu ve beş farklı programlama dilini kapsayan 113 görevlik bir değerlendirme olan DeepSWE, aynı gelişmiş modeller arasında dramatik bir performans farkı ortaya koyuyor ve OpenAI'nin GPT-5.5 modelini %70 puanla en yakın rakibinin 16 puan önünde açık ara lider olarak taçlandırıyor.
DeepSWE Karşılaştırması: Neden Mevcut Kodlama Testleri Yanıltıcı Olabilir?
Datacurve'un kurucu ortağı Serena Ge, X platformunda yaptığı açıklamada, "Genel liderlik tablolarında üst düzey modellerin yetenekleri genellikle birbirine yakın görünür. DeepSWE ise, geliştiricilerin günlük çalışmalarındaki gerçek deneyimlerini yansıtarak, modellerin aslında nerede ayrıştığını gösteriyor." ifadelerini kullandı. Bu yeni benchmark, yapay zeka endüstrisinin ilerlemeyi ölçmek için kullandığı değerlendirme altyapısına da yönelik eleştirel bir bakış sunuyor. Datacurve'un denetimi, SWE-Bench Pro'nun doğrulayıcılarının (bir görevi çözüp çözmediğini belirleyen otomatik puanlayıcılar) incelediği denemelerin yaklaşık üçte birinde yanlış kabul/ret kararları verdiğini ortaya çıkardı.
Bu bulgunun doğruluğu teyit edilirse, ciddi sonuçları olacaktır. Kurumsal satın alma ekipleri, risk sermayedarları ve yapay zeka laboratuvarlarının pazarlama departmanları, milyonlarca dolarlık kararlar alırken büyük ölçüde bu karşılaştırmalı analiz skorlarına dayanıyor. En yaygın kullanılan kodlama karşılaştırmalı analizindeki %32'lik bir hata oranı, sektörün hatalı bir pusulayla yönlendirildiğini düşündürüyor.
Mevcut Yapay Zeka Kodlama Karşılaştırmaları Neden Eğri Bir Puanlama Yapıyor Olabilir?
Datacurve'un iddialarını anlamak için kodlama karşılaştırmalı analizlerinin nasıl çalıştığını ve nasıl yanlış gidebileceğini anlamak önemlidir. Scale AI ve akademik araştırmacılar tarafından sürdürülen SWE-Bench ailesinin öncülük ettiği hakim paradigma, görevleri gerçek GitHub işlemelerinden (commit) madencilik yaparak oluşturur. Bu süreçte bir hata düzeltmesi veya özellik eklemesi, kodun düzeltmeden önceki haline geri döndürülür ve ardından bir yapay zeka aracısından bu değişikliği tekrarlaması istenir. Orijinal işlemenin test paketi, doğrulayıcı olarak kullanılır: Eğer aracının yaması aynı testleri geçerse, puan alır. Bu yaklaşım zarif bir basitliğe sahip olsa da, Datacurve bunun üç sistemik zayıflık getirdiğini savunuyor.
Birincisi, veri kirliliği (contamination). Görevler genel GitHub geçmişinden alındığı için, problem ifadesi, tartışma ve hatta tam çözüm, gelişmiş modellerin eğitim verilerinde zaten mevcuttur. Ge'nin belirttiği gibi, "SWE-Bench ailesi mevcut GitHub sorunlarını ve PR'ları kazıyarak iki sorun yaratıyor: ezberleme (modeller zaten çözümü görmüş) ve önemsizlik (çoğu görev küçük)."
İkincisi, kapsam. SWE-Bench Pro görevleri ortalama olarak sadece 5 dosyada 120 satır kod eklenmesini gerektirir. DeepSWE'nin referans çözümleri ise ortalama 7 dosyada 668 satır kod eklenmesini içeriyor - bu da yaklaşık 5.5 kat daha fazla kod anlamına geliyor. Ancak DeepSWE'nin komut istemleri aslında daha kısa, ortalama 2.158 karakter iken SWE-Bench Pro 4.614 karakterdir. Başka bir deyişle, DeepSWE, yapay zeka aracına daha az talimat veriyor ancak çok daha fazla çıktı bekliyor, bu da bir insan geliştiricinin bir yapay zeka yardımcısına iş devretme şeklini daha yakından yansıtıyor.
Üçüncüsü ve en zarar verici olanı, doğrulayıcı güvenilirliği. Datacurve, hem DeepSWE hem de SWE-Bench Pro'dan rastgele 30 görev çekti, 10 gelişmiş model konfigürasyonu üzerinde üç deneme çalıştırdı ve ardından her aracının yamasının gerçekten sorunu çözüp çözmediğini bağımsız olarak değerlendirmek için LLM tabanlı bir yargıç kullandı. SWE-Bench Pro'nun doğrulayıcıları, yanlış uygulamaları %8.5 oranında kabul etti ve doğru uygulamaları %24 oranında reddetti. DeepSWE'nin doğrulayıcıları ise sırasıyla %0.3 ve %1.1 oranlarını kaydetti.
Yanlış negatif (reddedilen doğru çözümler) sorunu, yaratıcı çözümleri cezalandırdığı için özellikle sinsi. Belgelenmiş bir vakada, bir SWE-Bench Pro görevi için altın standart çekme isteği (pull request), özel bir yardımcı fonksiyonu yeniden düzenledi. Aynı mantığı satır içi (inlining) kullanarak görevi doğru bir şekilde çözen bir yapay zeka aracı, test paketi orijinal yazarın özel uygulamasında bulunan bir sembolü içe aktarmaya çalıştığı için başarısız oldu. Bu durum, Datacurve'un bulgularını destekler nitelikteydi.
OpenAI'nin GPT-5.5 Yeni Karşılaştırmada Zirvede, Claude ve Gemini Geride Kaldı
DeepSWE'nin genel sonuçları, tanıdık hiyerarşiyi her mühendislik ekibinin yapay zeka kodlama araçlarını değerlendirirken dikkate alması gereken şekillerde yeniden sıralıyor. SWE-Bench Pro'da OpenAI, Anthropic ve Google'dan gelen modeller 30 puanlık bir aralıkta liderliği paylaştı. DeepSWE ise bu aralığı 70 puana kadar genişletiyor.
GPT-5.5, %70 ile liderliğini sürdürürken, onu %56 ile GPT-5.4 ve %54 ile Claude Opus 4.7 takip ediyor. Bundan sonra düşüş dik: Claude Sonnet 4.6 %32, Gemini 3.5 Flash %28, GPT-5.4-mini ve Kimi K2.6 %24 ile berabere kalırken, ardından onlu ve tek haneli sayılarda uzun bir kuyruk geliyor. SWE-Bench Pro'da %39 puan alan Claude Haiku 4.5, DeepSWE'de sıfıra çöküyor - bu da bazı orta düzey modellerin daha kolay, potansiyel olarak kirlenmiş karşılaştırmalarda önemli ölçüde abartılı performans gösterdiğini düşündürüyor.
GPT-5.5 sadece en yüksek puanı almakla kalmıyor, aynı zamanda bunu verimli bir şekilde yapıyor. Model, deneme başına ortalama 5.80 ABD Doları maliyet, ortalama 20 dakika işlem süresi ve ortalama 47.000 çıktı belirteci (token) ile %70 başarı oranına ulaşıyor. GPT-5.4, deneme başına 3.30 ABD Doları maliyetle %56'lık bir skorla muhtemelen en iyi genel değeri sunuyor. Bu sırada Claude Opus 4.7, çalıştırma başına önemli ölçüde daha pahalıya mal oluyor ve çıktı belirteçleri, işlem süresi ve deneme başına dolar maliyeti test edilen aracılara göre büyüklük mertebeleriyle değişiklik gösteriyor - ancak bunların hiçbiri başarı oranıyla güçlü bir şekilde ilişkili değil. Daha fazla belirteç üreten, daha uzun süren veya daha pahalıya mal olan aracılar tutarlı bir şekilde daha fazla görevi çözmüyor.
Datacurve'un Denetimi Claude'un Mevcut Karşılaştırmalarda Cevap Anahtarını Okuduğunu Ortaya Koydu
Belki de DeepSWE analizindeki en provokatif bulgu, yazarların "HİLELİ" (CHEATED) olarak adlandırdığı sonuçlarla ilgili - bir aracının sorunu çözerek değil, cevabı okuyarak bir karşılaştırmalı analizi geçtiği örnekler.
SWE-Bench Pro'nun Docker konteynerleri, deponun tam .git geçmişini içerir, bu da altın standart çözüm işlemesinin konteynerin dosya sisteminde durduğu anlamına gelir. Çoğu model bunu görmezden gelir. Ancak Claude bunu yapmıyor. Datacurve'un analizi, hem Claude Opus 4.7 hem de Claude Opus 4.6'nın incelenen SWE-Bench Pro denemelerinin %12'sinden fazlasında "HİLELİ" olarak işaretlendiğini buldu. Bu durumlarda, Claude aracısı, birleştirilmiş düzeltmeyi almak ve kendi yamasına yapıştırmak için `git log --all` veya `git show
GPT-5.4 ve GPT-5.5 bu davranışı hiç sergilemedi. Gemini konfigürasyonları %1 civarında kaldı. Datacurve bu davranışı diplomatik bir dille açıklıyor - "Karşılaştırmalı analiz bu olanağı sağlıyor (altın işlem konteynerde yaşıyor), ancak Claude bunu tutarlı bir şekilde yapan aile olarak öne çıkıyor" - ancak ima açıktır: Claude'un SWE-Bench Pro skorlarının anlamlı bir kısmı, gerçek mühendislik yeteneğinden ziyade çevresel sömürüyü yansıtıyor olabilir.
DeepSWE, altın karma (gold hash) keşfedilecek bir şey bırakmayarak, yalnızca sığ bir klon (shallow clone) göndererek bu duruma çözüm getiriyor. Bu davranışın, Claude'un çevresel farkındalığının bir işareti olarak görülebileceği belirtilmelidir - model çevresini keşfetme ve mevcut kaynakları kullanma konusunda çok iyidir. Bunun "hile" mi yoksa "kaynaklılık" mı sayılacağı bakış açısına bağlıdır, ancak bağımsız problem çözmeyi ölçmek için tasarlanmış bir karşılaştırmalı analiz bağlamında sinyali zayıflatır.
Her Yapay Zeka Model Ailesi Kendi Farklı Şeklinde Başarısız Oluyor ve Bu Desenler İşletme Ekipleri İçin Önem Taşıyor
Genel skorların ötesinde, Datacurve'un nitel analizleri, model aileleri arasında belirgin şekilde farklı başarısızlık imzaları ortaya koyuyor - bu bulgu, mühendislik ekiplerinin belirli iş türleri için doğru modeli seçmelerine yardımcı olabilir.
Claude, çok parçalı komut istemleriyle unutkanlık sergiliyor. DeepSWE üzerinde Claude konfigürasyonları, diğer ailelere göre belirtilen gereksinimleri daha sık kaçırıyor. Desen tutarlı: Bir komut istemi paralel davranışları listelediğinde (örneğin, "hem senkron hem de asenkron desteği"), Claude genellikle bariz olan dalı uygular ve değişikliği yansıtmayı unutur. Datacurve, DeepSWE'deki Claude'un "GEREKSİNİM KAÇIRILDI" (MISSED_REQUIREMENT) başarısızlıklarının yaklaşık üçte ikisinin bu "tek dal gönderildi" desenini takip ettiğini bildiriyor. Bir örnekte, Claude Opus 4.7 bir motor sınıfında senkron durum-veri kancasını doğru bir şekilde indirdi, ancak asenkron motor aynı kancayı hiç almadı.
Buna karşılık, GPT tam olarak istenen şeyi uygular. GPT-5.5, test edilen herhangi bir konfigürasyona göre belirtilen davranışları kaçırma oranında en düşüğü gösterdi. Aynı görevin birden fazla çalıştırmasında, GPT denemeleri komut isteminin aynı yorumuna doğru eğilim gösterdi, bu da talimat takip hassasiyetinin çalışma başına şans yerine modelin kararlı bir özelliği olduğunu düşündürüyor.
En ilgi çekici bulgulardan biri kendi kendine doğrulama ile ilgilidir. DeepSWE üzerinde, Claude Opus 4.7 ve GPT-5.4, kendilerinden istenmemesine rağmen çalışmalarının %80'inden fazlasında projenin kendi test çerçevesinde yeni testler yazdı ve çalıştırdı. SWE-Bench Pro'da ise aynı modeller sırasıyla %28 ve %18'e düştü. Neden: SWE-Bench Pro'nun komut istemi şablonu, yapay zeka araçlarına açıkça "test mantığını veya herhangi bir testi değiştirmemelidirler" talimatını veriyor. Araçlar itaatkar bir şekilde uydu ve performanslarını iyileştirecek bir davranışı bastırdı. Bu durum, üretim kodlama iş akışlarındaki komut istemi tasarımının, kurumsal ekiplerin yapay zeka kodlama araçları dağıtırken dikkatlice denetlemesi gereken değerli aracılık davranışlarını istemeden bastırıyor olabileceğini düşündürüyor.
DeepSWE Neleri Doğru, Neleri Yanlış Yapıyor ve Yapay Zeka Karşılaştırmalı Analizlerinin Geleceği İçin Ne Anlama Geliyor?
Datacurve, birkaç sınırlama konusunda açık sözlüdür. Standartlaştırılmış yapının adil bir denetim sağlarken, tüm düzenlemeleri modellerin eğitim aldığı model-spesifik düzenleme araçları (GPT için `apply_patch`, Claude için `str_replace_based_edit_tool`) yerine bash üzerinden yönlendirir. Bu durum, modelleri yerel tavanlarının altında tutabilir. Karşılaştırmalı analiz, yalnızca 500'den fazla yıldıza sahip açık kaynaklı depolardan veri çeker ve sonuçlar özel kod tabanlarına genelleştirilmeyebilir. Hata yerelleştirme ve yeniden düzenleme görevleri yetersiz temsil edilir ve C++ ve Java gibi yaygın kullanılan diller tamamen eksiktir. Nitel analizdeki karar atamaları, insan inceleyiciler yerine bir LLM analizcisi tarafından yapılır ve örneklem boyutları mütevazıdır - model başına karşılaştırmalı analiz başına yaklaşık 90 incelenen deneme.
Ayrıca, Datacurve'un kendi ticari çıkarları olan bir startup olduğunu ve liderlik tablosunu yeniden şekillendiren bağımsız bir karşılaştırmalı analizin kaçınılmaz olarak incelemeyi davet edeceğini belirtmek gerekir. Şirketin tam veri setini, tüm araç yörüngelerini ve değerlendirme yapısını GitHub'da yayınlama kararı, bu endişeyi önemli ölçüde hafifletir, ancak yapay zeka topluluğu bu sonuçları kesin olarak kabul etmeden önce bağımsız tekrarın gerekli olması muhtemeldir.
DeepSWE, yapay zeka kodlama pazarı için bir dönüm noktasında ortaya çıkıyor. Yapay zeka kodlama araçlarının kurumsal olarak benimsenmesi hızla hızlanıyor ve mühendislik organizasyonları hangi model etrafında inşa edecekleri konusunda önemli bahisler yapıyor. Karşılaştırmalı analiz pazarı da stratejik bir savaş alanı haline gelmiş durumda - Datacurve'un doğrudan eleştirdiği Scale AI'nin SWE-Bench Pro'su, modellerini sıraladığı laboratuvarlara değerlendirme hizmetleri de sağlayan bir şirket tarafından sürdürülüyor.
Eğer DeepSWE'nin doğrulayıcı güvenilirliği ve veri kirliliği hakkındaki temel bulguları bağımsız incelemelerde doğrulanırsa, bu durum sadece kodlama araçlarının nasıl ölçüldüğü konusunda değil, aynı zamanda karşılaştırmalı analizlerin aslında ne işe yaradığına dair daha geniş bir soruyu da zorlayabilir. Not verme sisteminin üçte bir oranında yanlış olduğu bir liderlik tablosu sadece hatalı değildir - herkesin gerçekte olmayan bir ilerleme hakkında iyi hissetmesini sağlayan kırık bir enstrümandır. Ve yazılım mühendislerinin işini yapabilecek yapay zeka araçlarına milyarlar harcayan bir endüstride, gerçek ilerleme ile görünüşü arasındaki fark akademik değildir. Tüm oyunun kendisidir.